1. 国家卫星气象中心,北京 100081; 2. 许健民气象卫星创新中心,北京 100081;3. 航天宏图信息技术股份有限公司,北京 100089;4. 北京师范大学地理科学学部,北京 100875;5. 中国科学院地理科学与资源研究所,北京 100101;6. 中国科学院空天信息创新研究院,北京 101408;7. 电子科技大学长三角研究院,湖州 313001
摘 要:国际地球观测组织(Group on Earth
Observations,GEO)是2005年正式成立的政府间国际组织,宗旨是通过综合、协调和可持续的地球观测,更好地认识地球系统,为决策提供从初始观测数据到专业应用产品的信息服务,从而造福人类;其核心目标为建立一个全球综合地球观测系统(Global Earth
Observation System of Systems,GEOSS)。GEO工作计划是实施GEO新十年 (2016–2025年)战略执行计划的驱动力,GEO工作计划推进情况和地球观测领域的发展进程直接标志着GEOSS的建设进程。然而GEOSS是一个复杂的多层次、多学科和多领域的综合系统,利用传统手段获取工作开展和进展信息是非常困难的。为此,本文针对地球观测卫星委员会(Committee on
Earth Observation Satellites,CEOS)和世界气象组织(World Meteorological
Organization,WMO)运营的地球观测空间数据库、GEO图书馆、地球观测大型会议相关文献以及科技文献资料,提出利用众源大数据采集技术,获取地球观测相关的文本消息、图片、报告、音视频以及科学论文资料,形成众源地球观测大数据采集的核心技术,进一步对功能结构进行设计,实现了GEOSS大数据采集与管理系统的研制,该系统可为GEOSS进展战略性评估提供有效支撑。
关键词:全球综合地球观测系统;大数据;众源观测;地球观测进展评估;地球观测组织
DOI:
https://doi.org/10.3974/geodp.2024.04.03
CSTR: https://cstr.escience.org.cn/CSTR:20146.14.2024.04.03
国际地球观测组织(Group on Earth Observations,GEO)是为响应2002年在南非约翰内斯堡举行的世界可持续发展峰会提出的对地球状况进行协调观测的迫切要求,以及2003年在法国举行的八国集团首脑峰会(G8)关于确认地球观测应是重要和优先行动的声明,经2003、2004、2005年3次部长级地球观测峰会推动,于2005年正式成立的政府间国际组织[1,2]。GEO的宗旨是通过综合、协调和可持续的地球观测支持决策和行动,更好地认识地球系统,为决策提供从初始观测数据到专业应用产品的信息服务,从而造福人类。其核心目标是建立一个全球综合地球观测系统(Global Earth Observation System of Systems,GEOSS)。《全球综合地球观测系统(GEOSS)十年执行计划(2006–2015)》是GEO成立初期制订的第一个十年战略执行计划,是战略性、框架性的发展规划,确定了灾害、健康、能源、气候、水资源、天气、生态系统、农业和生物多样性9个社会受益领域(Societal Benefit Areas, SBA)[1]。GEOSS第二个十年战略执行计划(2016–2025)在2015年11月墨西哥城召开的第四次GEO部长级峰会启动,决定在生物多样性和生态系统管理、防灾减灾、能源和矿产资源管理、粮食安全与可持续农业、基础设施和交通系统管理、公共卫生监测、城镇可持续发展、水资源管理等8个社会受益领域开展工作。随后,GEO将联合国2030年可持续发展议程、巴黎气候变化协定和仙台减灾框架作为三大优先发展事项。
GEO工作计划是推动实施GEO新十年(2016–2025)战略执行计划的重要工作文件[3],地球观测组织非常重视GEO工作计划的执行情况和GEOSS的建设进展。我国众多学者密切关注国际地球观测的工作[4–7],不断总结国际发展趋势[8],在GEOSS的数据分发系统[9]、亚洲大洋洲区域综合地球观测系统计划[10]、中国利用国外设施建设地球观测系统[11]、社会受益领域应用[12,13]、科学数据共享政策[14–16]等方面进行了跟踪研究、评估和评述。
然而,GEOSS是一个复杂的多层次、多学科和多领域的综合系统[17],这个系统涉及发达国家的地球观测系统[18]、发展中国家的地球观测系统[19,20],既涉及硬件系统也涉及软件系统,甚至还有区域、语言、人文地理等方面的问题,既有公益的也有商业的,利用传统手段获取工作开展和进展信息是非常困难的[21–25]。本文探讨一些新的理念和技术手段,特别是利用众源大数据技术采集地球观测进展信息,用于支持GEOSS评估。
GEOSS大数据采集与管理系统围绕“搭建环境、汇聚数据、开发应用、服务支撑”的整体思路,以GEOSS应用相关数据为基础,建设应用评估系统,深度挖掘数据价值,提升GEOSS应用进展评估能力。GEOSS大数据采集与管理系统包括基础设施层、数据资源层、应用服务支撑层、业务应用层、用户交互层、安全保障体系和标准规范体系7部分。系统总体框架如图1,系统拓扑结构如图2所示。
基础设施层包括网络与基础硬件,用于支撑各类应用系统的稳定运行。系统的网络环境主要依托云服务器。基础硬件包括服务器、网络设备、存储设备等。
数据资源层作为信息资源中心,提供综合数据服务,保障系统运行。数据依结构化和分布式进行存储。存储的数据包括空间数据库数据、信息资料、会议信息、访谈资料等。
应用服务支撑层包括数据引擎、工作流引擎、接口服务、模型库构建技术、网络爬虫技术等。
业务应用层在保障体系支持下,在基础设施、数据库、共享组件和数据中心的基础上进行业务应用,包括数据管理、评估模型管理、GEOSS应用进展评估。
用户交互层是系统与用户对接的界面,用户可以通过界面对系统进行操作,处理、生成和获取所需的信息。
图1 GEOSS项目评估数据采集与管理系统总体架构图
安全保障体系是系统正常运营的法律依据和制度保障,包括遵守的各级法律法规和标准规范,同时包括保证系统正常运行的信息安全、系统安全的组织及管理制度。
标准规范系统是系统开发和应用所遵循和执行的国家统一标准和规范、采用的技术规格、数据统一的格式等涉及的标准与规范。
GEOSS大数据采集与管理系统的功能是利用信息技术手段汇聚CEOS/ESA(欧洲航天局) MIM(Mission Information Manager)空间数据库、WMO OSCAR(Observing Systems Capability Analysis and Review Tool)空间数据库、GEO图书馆、众源大数据,获取GEO地球观测系统相关的信息资料,包括文本消息、图片、报告、音视频以及科学论文资料,最后利用搭建的地球观测大数据平台对获取的资料进行管理。
图2 GEOSS项目评估数据采集与管理系统拓扑结构图
GEOSS大数据采集与管理系统采用组件化设计思路并采用B/S(Browser/Server)结构,遵循通用Web浏览器规范,默认兼容谷歌浏览器、360浏览器,提供可持续加载和维护业务的功能模块,能够持续完善和不断扩展系统功能。
GEOSS大数据采集与管理系统的数据主要包括CEOS/ESA MIM空间数据库、WMO OSCAR空间数据库、GEO图书馆的信息资料,地球观测相关文本消息、图片、报告、音视频以及科学论文资料,GEO的工作计划研讨会、GEO全会和峰会、AOGEO(Asia-Oceania Group on Earth Observations)、EUROGEO、AmeriGEO、AfriGEO、CEOS、中欧“龙计划”、SPIE(International Society for Optics and Photonics)地球观测卫星专场、IGARSS(International Geoscience and Remote Sensing Symposium)地球观测卫星专场等大型地球观测会议资料。对于结构化数据,采用MySQL数据库存储,非结构化数据采用HBase数据库存储。
3.1 数据架构设计
数据存储功能是平台对外提供服务的核心和基础。在软件系统开发中,数据存储设计应遵循必要的设计原则和理论,减少冗余,保证数据的完整性与正确性,设计方案直接关系系统执行的效率和系统的稳定性。为了构架一个坚实可靠、高性能的信息服务系统,数据存储设计遵循以下基本原则:
(1)集中性原则
本系统以管理系统集中、数据集中、处理集中为原则,进行统一设计,采集统一标准进行开发与应用。
(2)先进性和成熟性原则
本系统选择具有一定的先进代表水平并且相对成熟的技术来构建信息服务系统,采用当前最新和最通用的硬件平台和数据库引擎,通过管理维护数据库对系统的数据规范及权限等进行管理,保证系统的稳定性、成熟性的同时,还保持一定的先进性。
(3)可靠性和可用性原则
本系统充分考虑应变能力、容错能力和纠错能力,采用可靠性高的技术进行开发,以确保系统的稳定运行和可靠安全。
(4)效益性和实用性原则
本系统设计开发全面考虑系统的经济效益和社会效益。
(5)前瞻性和可扩展性原则
本系统设计具一定的超前意识,保证系统在较长时期内仍然是先进的和稳固的;也考虑系统具有良好的扩展性和升级能力,能够顺利地实现向新一代设备、技术平台的平滑升级。
(6)安全和保密性原则
本系统的安全性和保密性重点从设备安全、网络安全、数据安全多角度进行设计和开发,确保业务信息的安全。
(7)标准性和规范性原则
本系统数据库建设遵循相关的国家标准和规范,其中数据分层、分类与编码、精度、符号等参考已有的相关国家标准;部分环节没有标准规范时,采用行业当前应用的技术规范与标准。
(8)全面准确性原则
本系统的数据库内容设计尽可能全面,数据库中字段的类型、长度能够满足业务应用需要,所设计的字段类型和长度能够满足当前和未来发展的业务需要。
(9)松散耦合性原则
本系统各子系统间遵循松散耦合的原则,也就是在各个子系统之间不设置强制性的约束关系。子系统之间的联系通过重新输入、查询、程序缺省填入等方式建立,子系统之间的关联字段是冗余存储的。
数据库储存文本消息、图片、报告、音视频等数据,同时通过数据接口接入其他业务平台数据,通过数据解码、数据组合排重、格式转换等手段对存储数据进行预处理。
GEOSS大数据采集与管理系统各种数据的来源网址见表1。
系统中需要存储的数据类型、数据存储方式以及数据来源如表2所示:
3.2 接口设计
接口设计总体上遵循高内聚、低耦合的设计原则,这也是软件设计过程中遵行的一个重要原则,这样可以减少各系统之间、系统内部各个模块之间的耦合度,同时也降低操作复杂度,保证系统的通用性,提高系统的重用性和扩展性,具体原则如下:
(1)主要原则
1)所有的接口设计遵循项目建设规定和接口规范;
2)技术上考虑SOA的组件化设计思想,实现系统间的松散耦合。
(2)其他原则
1)使用简单、快捷,通用性好,可靠性高;
2)充分考虑接口所涉及的各个系统的应用扩展情况,能灵活地支撑需求变化;
表1 数据来源表
数据源 |
获取网址 |
CEOS/ESA MIM 空间数据库 |
http://database.eohandbook.com/ |
WMO OSCAR 空间数据库 |
https://space.oscar.wmo.int/ |
GEO 图书馆 |
https://earthobservations.org/resources |
工作计划研讨会 |
https://earthobservations.org/events |
GEO全会和峰会 |
https://www.earthobservations.org/ |
AOGEO |
https://aogeo.net/ |
EUROGEO |
https://www.eurogeosec.eu/ |
AmeriGEO |
https://www.amerigeo.org/ |
AfriGEO |
https://earthobservations.org/organization/work-programme/african-group-on-earth-observations |
CEOS |
https://www.ceos.org/ |
中欧“龙计划” |
https://dragon5.esa.int/ |
SPIE 地球观测卫星专场 |
https://spie.org |
IGARSS 地球观测卫星专场 |
https://www.grss-ieee.org/ |
表2 数据来源及类型列表
序号 |
数据名称 |
数据来源 |
数据类型 |
数据库 |
1 |
GEO地球观测系统相关的信息资料 |
CEOS/ESA MIM空间数据库、WMO OSCAR空间数据库 |
.xml、.json、.csv、.nc、 .html、.pdf |
本地磁盘、MySQL |
2 |
GEO地球观测系统相关的信息资料 |
众源大数据采集技术检索 |
.txt、.jpg、.png、.pdf、 .docx、.mp3、.mp4等 |
本地磁盘、HBase |
3 |
科学论文资料 |
众源大数据采集技术检索 |
.docx、.pdf |
本地磁盘、HBase |
4 |
会议资料 |
GEO 的工作计划研讨会、GEO 全会和峰会、AOGEO、EUROGEO、AmeriGEO、AfriGEO、CEOS、中欧“龙计划”、SPIE地球观测卫星专场、IGARSS地球观测卫星专场等大型地球观测会议 |
.docx、.jpg、.pdf |
本地磁盘、HBase |
3)保证接口数据在接口所涉及的各个系统间的一致性;
4)在数据交互过程中,应具有传送和接收后的确认过程。
接口实现方式包括消息、API(Application Programming Interface)、共享目录等。
在本系统中,消息队列模式主要用于监控系统与系统之间监控信息的传递、与各个系统之间作业调度指令的传递。对于消息队列模式设计如下:具备消息封装功能,具备消息自动路由功能,具备可靠的消息转换和消息传输功能,具备对特殊消息的加密和容错处理功能。
为了保持多系统之间接口的兼容性,需要提供多种API的方式供其他系统从本系统中获取数据。对于API接口方式设计如下:独立封装的逻辑处理函数接口,方便与前端C、JAVA、PYTHON等程序的集成,具有API版本管理功能,具有与服务器端连接的高可靠性和高效性,具有完整的日志记录功能,具有与服务器端连接参数可配置化的功能。
在系统内部之间交互文件数据时,都采用共享目录接口方式进行数据文件的交互。对于共享目录接口方式设计如下:统一规划交互的文件存放目录,具备高效、可靠的目录管理策略,具有可配置的目录读写权限控制,具有数据文件到达和处理的可靠触发机制,具有数据文件拷贝完成、未完成的状态区分标识,具有数据文件已经处理完毕和未处理的状态区分标识。
共享目录接口主要通过基于共享读写存储的方式实现系统之间数据文件的交互。当对文件进行读写时通过目录文件的拷贝机制实现。
3.3 性能及非功能设计
3.3.1 性能优化设计
本系统性能主要体现在时效性、稳定性、易操作、可扩展等方面,为保证性能指标的实现,需要在数据库服务器、数据库访问、应用程序等方面进行优化设计。
3.3.2 数据库服务器优化设计
数据块:数据库的数据文件采用合适大小的数据块分块进行存贮,以获得最佳数据存储空间与高效访问。
并行处理:数据的查询以及插入、修改、删除等操作充分利用数据库的并行处理能力。
裸设备:采用裸设备作为数据库的数据存储介质,提高读写频繁的数据库的性能。
3.3.3 数据库优化设计
分库:基于分布式数据库原理进行数据的分库设计,保证数据均衡的分布在各底层数据库实例上,并可以进行高效的查询访问。
字段索引:考虑数据存储与应用的需求特点,设计合适的数据字段索引。
3.3.4 应用程序优化设计
缓存:反复使用的参数表或元数据缓存到内存中,提高数据应用效率。
分页:系统查询结果合理分页显示,避免查询返回大结果集,有效提高系统响应速度与性能。
并行处理:充分利用多核CPU的计算能力,对密集数据进行并行处理,提高系统运行效率。
3.3.5 可靠性设计
为保证系统可靠稳定运行,在设计方案中采用了以下策略:
(1)高可用策略。采用高可用策略,将系统服务部署在主从服务器上,主从服务通过心跳监测方式,感知系统可用性,及时发现系统崩溃现象,进而保证了一台服务器故障时,整个系统仍能正常运行,不会出现崩溃或丢失数据的情况。
(2)高效性策略。随着获取的数据不断丰富,对系统服务能力,数据访问能力(IO能力)和计算能力的要求会越来越高,为此,利用当前比较先进的大数据技术,如分布式数据库架构、并行计算、并行调度、分布式计算、高效共享文件存储等技术手段,保证大数据量处理压力下,系统仍能高效运行。
(3)软件复杂度控制。本系统模块众多,逻辑复杂,为降低软件缺陷对输入环境的敏感度,降低软件故障的传染性,在软件设计中采用面向对象的设计方法,并对程序的长度及逻辑复杂度进行控制。
面向对象的设计方法,使软件具有封装、抽象、继承的特性,对象之间相对独立,对象内部各元素联系紧密,从而形成“高内聚”“低耦合”的软件系统。
程序的出错率估算范围一般为0.04%–7%,对于少于100个语句的程序,源代码行数与出错率为线性相关,随着程序的增大,出错率以非线性方式增长。在本软件包中,对象内的方法设计代码长度控制在平均60行左右。
对程序控制流的复杂度进行控制,分析程序分支数目及循环数目,对于复杂度大于10的程序,分解为更小的程序,以降低程序出错率。
(4)纠错性机制。本系统设置系统运行日志来记录系统运行中的关键步骤和异常信息。系统运行日志是一个以时间顺序排列的日志记录集合,形式上是一个由一行行文本组成的文本文件,其扩展名为“.log”。一旦系统出现问题,例如发生系统崩溃,可通过查询系统日志来找出导致系统异常的确切原因和发生错误的精确位置。在决策方案评价与优化子系统的设计中,对各种系统的运行异常,如空指针错误等,都应用了JAVA的异常处理机制。
3.4 数据采集录入子系统设计
数据采集录入子系统实现GEO应用数据的采集、处理、分类、归档、入库等功能。数据采集录入子系统由数据自动采集模块、数据录入模块、数据归档模块组成。
数据自动采集模块针对表2中列出的数据类型,实现对项目所需多种类型业务数据的采集。
数据录入模块实现相关数据的手动录入,完成数据校验后,储存到数据库中。
(1)采集的数据进行科学分类,设定数据录入校验标准,由数据采集员分类录入。
(2)对于文字资料,人工录入后将文件保存为.docx格式。
(3)对于表格数据,在EXCEL软件中保存成.xlsx文件,以便进行查询统计分析。
(4)对于照片或者多媒体数据,单独保存成.jpg格式或者通用流媒体格式。
数据归档模块实现数据的分类整理。通过对元数据、中间数据、业务数据、挖掘数据等数据进行,来提高用户对该数据进行的检索、调用、挖掘时的准确性和高效性。用户可通过预设分类规则对数据实现自动分类,也可手动自定义新的分类规则,对数据进行定制化分类。最后研发的系统界面如图3所示。
全球综合地球观测系统是一个复杂的多层次、多学科和多领域的综合系统,GEOSS经过第二个十年的发展,取得了什么样的进展,如何才能给予客观的评估,均是整个地球观测界最为关心的问题。基于CEOS/ESA MIM空间数据库、WMO OSCAR空间数据库、GEO图书馆、地球观测大型会议文献等,利用众源大数据采集技术,检索与GEO 地球观测系
图3 系统界面
统相关的信息资料,包括文本消息、图片、报告、音视频以及科学论文资料,作者研制了GEOSS大数据采集与管理系统,该系统对GEOSS战略性进展具有独特的支撑作用。
作者分工:范锦龙、柳杨华对系统的开发做了总体设计;朱杰、刘闯、吴俊君对系统设计提出了优化建议;范锦龙、朱杰、Tesfaye Adugna撰写了论文。
利益冲突声明:本研究不存在研究者以及与公开研究成果有关的利益冲突。
[1] 冯筠, 高峰, 黄新宇. 构建天地一体化的全球对地观测系统——三次国际地球观测峰会与GEOSS[J]. 地球科学进展, 2005, 20(12): 7. DOI: 10.3321/j.issn:1001-8166.2005.12.008.
[2]
晓月. 全球将加强在地球观测方面的合作[J]. 国际太空,
2005(4): 1. DOI: CNKI:SUN:GJTK.0.2005-04- 003.
[3] 范锦龙, 刘闯, 吴俊君等. 地球观测组织(GEO)第八个阶段性计划(2023-2025)特点分析[J]. 全球 变化数据学报, 2023, 7(3): 233–241. https://doi.org/10.3974/geodp.2023.03.01. https://cstr.escience.org. cn/CSTR:20146.14.2023.03.01.
[4] 李梦学. 地球观测领域国际合作十年执行计划及启示[J]. 中国科技产业, 2007(7): 4. DOI: 10.3969/j. issn.1002-0608.2007.07.018.
[5] 李梦学, 张松梅. 地球观测领域国际科技合作现状、趋势及启示[J]. 遥感信息, 2009(2): 4. DOI: 10. 3969/j.issn.1000-3177.2009.02.022.
[6] 张东风. 全球综合地球观测系统门户网站的研建[D]. 北京:北京林业大学, 2016. DOI: CNKI:CDMD:2.1016.145077.
[7] 赵利民, 苗晨, 邢进等. 地球观测知识枢纽: 内涵, 关键技术与展望[J]. 遥感学报, 2024, 28(6): 1375–1394. DOI: 10.11834/jrs.20222302.
[8] 李国庆, 张红月, 张连翀等. 地球观测数据共享的发展和趋势[J]. 遥感学报, 2016, 20(5): 12. DOI: 10. 11834/jrs.20166173.
[9] 范锦龙. 地球观测数据卫星分发系统发展综述[J]. 地球科学进展, 2012, 27(7): 712–716. DOI: 10. 13769/j.cnki.cn50-1011/d.2014.07.024.
[10] 顾行发, 牛铮, 余涛等. 亚洲大洋洲区域综合地球观测系统计划进展[J]. 遥感学报, 2018, 22(4): 14. DOI: 10.11834/jrs.20188065.
[11] 刘闯, 文洪涛, 赵立成等. 我国EOS-MODIS地面站建设的现状、问题与对策[J]. 遥感信息, 2003(4): 42–47. DOI: 10.3969/j.issn.1000-3177.2003.04.011.
[12] 范锦龙, 张明伟, 曹广真等. 全球干旱卫星监测计划[J]. 气象科技进展, 2014, 4(5): 4. DOI: 10.3969/j. issn.2095-1973.2014.05.006.
[13] 李素菊. 空间减灾国际合作机制(四)地球观测组织机制介绍[J]. 中国减灾, 2018, 330(15): 52–53. DOI: CNKI:SUN:ZGJI.0.2018-15-018..
[14] 孙枢, 张先恩, 郭增艳等. 美国科学数据共享政策考察报告[J]. 中国基础科学, 2002(5): 3. DOI: 10. 3969/j.issn.1009-2412.2002.05.009.
[15] 景贵飞. 开放科学对全球综合地球观测系统建设影响分析[J]. 国土资源遥感, 2020, 32(4): 7. DOI: 10.6046/gtzyyg.2020.04.01.
[16] 褚文博, Uhlir, P. F. 地球观测组织(GEO)数据共享, 数据管理解决方案及最佳案例研讨会总结[J]. 全球变化数据学报, 2017, 1(4): 486–489. https://doi.org/10.3974/geodp.2017.04.21.
[17] 麻常雷, 高艳波. 多系统集成的全球地球观测系统与全球海洋观测系统[J]. 海洋技术, 2006(3): 41–44+50. DOI: 10.3969/j.issn.1003-2029.2006.03.010.
[18] 杨帆. 欧盟加强地球观测能力建设[J]. 空间科学学报, 2018, 38(1): 1. DOI: CNKI:SUN:KJKB.0.2018- 01-009.
[19] 李梦学, Townshend, J. R., 吴炳方. 中国对全球地球观测系统的贡献[J]. 遥感学报, 2010(3): 8. DOI: 10. 3724/SP.J.1011.2010.01138.
[20] 苗晨, 刘志春, 张景等. 中国综合地球观测系统的构成与实践研究[J]. 遥感信息, 2024, 39(2): 12–18.
[21] 孙凯, 陈英武, 李菊芳等. 地球观测卫星系统性能评价指标体系研究[C]. 和谐发展与系统工程——中国系统工程学会第十五届年会论文集. 2008. DOI: ConferenceArticle/5aa0852fc095d722207612c6.
[22] 孙凯, 陈英武, 李菊芳等. 地球观测卫星系统性能指标及其仿真应用研究[J]. 计算机仿真, 2009(4): 4. DOI: 10.3969/j.issn.1006-9348.2009.04.015.
[23] 项磊, 孟新, 张秀成等. 基于HLA的对地观测卫星系统效能评估研究[J]. 计算机仿真, 2010(7): 5. DOI: 10.3969/j.issn.1006-9348.2010.07.008.
[24] 贺东雷, 李国平, 侯宇葵. 天基对地观测系统效能评估初探[J]. 中国空间科学技术, 2014, 34(1): 8. DOI: 10.3780/j.issn.1000-758X.2014.01.003.
[25]
孙伟伟, 杨刚, 陈超等. 中国地球观测遥感卫星发展现状及文献分析[J]. 遥感学报, 2020, 24(5): 32. DOI: CNKI:SUN:YGXB.0.2020-05-001.